智能论文笔记

Mixed Cloud Control Testbed: Validating Vehicle-Road-Cloud Integration via Mixed Digital Twin

Jianghong Dong , Qing Xu , Jiawei Wang , Chunying Yang , Mengchi Cai , Chaoyi Chen , Jianqiang Wang , Keqiang Li

分类：机器人

2022-12-05

Reliable and efficient validation technologies are critical for the recent development of multi-vehicle cooperation and vehicle-road-cloud integration. In this paper, we introduce our miniature experimental platform, Mixed Cloud Control Testbed (MCCT), developed based on a new notion of Mixed Digital Twin (mixedDT). Combining Mixed Reality with Digital Twin, mixedDT integrates the virtual and physical spaces into a mixed one, where physical entities coexist and interact with virtual entities via their digital counterparts. Under the framework of mixedDT, MCCT contains three major experimental platforms in the physical, virtual and mixed spaces respectively, and provides a unified access for various human-machine interfaces and external devices such as driving simulators. A cloud unit, where the mixed experimental platform is deployed, is responsible for fusing multi-platform information and assigning control instructions, contributing to synchronous operation and real-time cross-platform interaction. Particularly, MCCT allows for multi-vehicle coordination composed of different multi-source vehicles (\eg, physical vehicles, virtual vehicles and human-driven vehicles). Validations on vehicle platooning demonstrate the flexibility and scalability of MCCT.

translated by 谷歌翻译

Superpoint Transformer for 3D Scene Instance Segmentation

Jiahao Sun , Chunmei Qing , Junpeng Tan , Xiangmin Xu

分类：计算机视觉

2022-11-28

Most existing methods realize 3D instance segmentation by extending those models used for 3D object detection or 3D semantic segmentation. However, these non-straightforward methods suffer from two drawbacks: 1) Imprecise bounding boxes or unsatisfactory semantic predictions limit the performance of the overall 3D instance segmentation framework. 2) Existing method requires a time-consuming intermediate step of aggregation. To address these issues, this paper proposes a novel end-to-end 3D instance segmentation method based on Superpoint Transformer, named as SPFormer. It groups potential features from point clouds into superpoints, and directly predicts instances through query vectors without relying on the results of object detection or semantic segmentation. The key step in this framework is a novel query decoder with transformers that can capture the instance information through the superpoint cross-attention mechanism and generate the superpoint masks of the instances. Through bipartite matching based on superpoint masks, SPFormer can implement the network training without the intermediate aggregation step, which accelerates the network. Extensive experiments on ScanNetv2 and S3DIS benchmarks verify that our method is concise yet efficient. Notably, SPFormer exceeds compared state-of-the-art methods by 4.3% on ScanNetv2 hidden test set in terms of mAP and keeps fast inference speed (247ms per frame) simultaneously. Code is available at https://github.com/sunjiahao1999/SPFormer.

translated by 谷歌翻译

A Comprehensive Survey on Trustworthy Recommender Systems

Wenqi Fan , Xiangyu Zhao , Xiao Chen , Jingran Su , Jingtong Gao , Lin Wang , Qidong Liu , Yiqi Wang , Han Xu , Lei Chen

分类：人工智能 | 机器学习

2022-09-21

作为最成功的AI驱动应用程序之一，推荐系统的目的是通过在我们生活的许多方面提供个性化建议，以有效而有效的方式帮助人们做出适当的决定，尤其是针对各种面向人类的在线服务，例如E-商务平台和社交媒体网站。在过去的几十年中，推荐系统的快速发展通过创造经济价值，节省时间和精力以及促进社会利益，从而使人类受益匪浅。但是，最近的研究发现，数据驱动的推荐系统可能会对用户和社会构成严重威胁，例如传播虚假新闻以操纵社交媒体网站中的公众舆论，扩大不公平为代表性不足的团体或在工作匹配服务中的个人，或从建议结果中推断隐私信息。因此，系统的可信赖性一直吸引着各个方面的关注，以减轻推荐系统引起的负面影响，以增强公众对推荐系统技术的信任。在这项调查中，我们提供了可信赖的推荐系统（TREC）的全面概述，特别关注六个最重要的方面；即安全与鲁棒性，非歧视与公平，解释性，隐私，环境福祉以及问责制和可审计性。对于每个方面，我们总结了最近的相关技术，并讨论了潜在的研究方向，以帮助未来实现值得信赖的推荐系统。

translated by 谷歌翻译

M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network

Zhe Zhang , Yukun Zou , Junjie Lai , Qing Xu

分类：机器学习 | 人工智能

2022-09-16

深Q学习网络（DQN）是一种成功的方式，将增强学习与深神经网络结合在一起，并导致广泛应用强化学习。当将DQN或其他强化学习算法应用于现实世界问题时，一个具有挑战性的问题是数据收集。因此，如何提高数据效率是强化学习研究中最重要的问题之一。在本文中，我们提出了一个框架，该框架使用深q网络中的最大均值损失（m $^2 $ dqn）。我们没有在训练步骤中抽样一批体验，而是从体验重播中采样了几批，并更新参数，以使这些批次的最大td-Error最小化。所提出的方法可以通过替换损耗函数来与DQN算法的大多数现有技术结合使用。我们在几个健身游戏中使用了最广泛的技术DQN（DDQN）之一来验证该框架的有效性。结果表明，我们的方法会导致学习速度和性能的实质性提高。

translated by 谷歌翻译

Calibrated One-class Classification for Unsupervised Time Series Anomaly Detection

Hongzuo Xu , Yijie Wang , Songlei Jian , Qing Liao , Yongjun Wang , Guansong Pang

分类：机器学习 | 人工智能

2022-07-25

无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标，以尽可能准确地学习数据正常（正常模式和行为）。但是，这些单级学习方法可以被训练数据中未知异常（即异常污染）所欺骗。此外，他们的正常学习也缺乏对感兴趣异常的知识。因此，他们经常学习一个有偏见的，不准确的正态边界。本文提出了一种新型的单级学习方法，称为校准的一级分类，以解决此问题。我们的单级分类器以两种方式进行校准：（1）通过适应性地惩罚不确定的预测，这有助于消除异常污染的影响，同时强调单级模型对一级模型有信心的预测，并通过区分正常情况来确定（2）来自本机异常示例的样本，这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的，异常的单级学习，从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明，我们的模型大大优于12个最先进的竞争对手，并获得了6％-31％的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。

translated by 谷歌翻译

Learning fast and agile quadrupedal locomotion over complex terrain

Xu Chang , Zhitong Zhang , Honglei An , Hongxu Ma , Qing Wei

分类：机器人 | 人工智能

2022-07-02

在本文中，我们提出了一个可靠的控制器，该控制器在真正的盲人四足机器人上实现了自然且稳定的快速运动。只有本体感受信息，四足机器人的身体长度最大速度可以移动10倍，并且具有通过各种复杂地形的能力。通过无模型的强化学习，在模拟环境中训练控制器。在本文中，拟议的宽松邻里控制体系结构不仅保证了学习率，而且还获得了一个易于转移到真正四倍的机器人的动作网络。我们的研究发现，训练过程中存在数据对称性损失的问题，这导致学习控制器在左右对称的四倍体机器人结构上的性能不平衡，并提出了一个镜像世界神经网络来解决性能问题。由Mirror-World网络组成的学习控制器可以使机器人具有出色的反扰动能力。训练架构中没有使用特定的人类知识，例如脚部轨迹发生器。学识渊博的控制器可以协调机器人的步态频率和运动速度，并且与人工设计的控制器相比，运动模式更自然，更合理。我们的控制器具有出色的抗扰动性能，并且具有良好的概括能力，可以达到从未学到的运动速度，并且从未见过的地形。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

RT-DNAS: Real-time Constrained Differentiable Neural Architecture Search for 3D Cardiac Cine MRI Segmentation

Qing Lu , Xiaowei Xu , Shunjie Dong , Callie Hao , Lei Yang , Cheng Zhuo , Yiyu Shi

分类：计算机视觉 | 机器学习

2022-06-08

在各种实时MRI引导心脏干预措施中，准确分割Cine磁共振成像（MRI）的时间框架是至关重要的步骤。为了获得快速准确的视觉援助，对分割框架的最大延迟和最小吞吐量有严格的要求。该任务上的最新神经网络主要是手工制作的，可以满足这些约束，同时达到了高精度。另一方面，尽管现有文献已经证明了神经体系结构搜索（NAS）在自动识别各种医学应用的最佳神经体系结构方面的力量，但它们主要以准确性为导向，有时是计算复杂性和实时的重要性。约束被忽略。一个主要的挑战是，此类约束是不可差异的，因此与广泛使用的可区分NAS框架不兼容。在本文中，我们提出了一种策略，该策略直接在名为RT-DNAS的可区分NAS框架中处理实时约束。扩展2017 MICCAI ACDC数据集的实验显示，与手动和自动设计的架构进行了最新的架构相比，RT-DNAS能够以更好的精度识别同时满足实时约束的识别。

translated by 谷歌翻译

Animatable Implicit Neural Representations for Creating Realistic Avatars from Videos

Sida Peng , Zhen Xu , Junting Dong , Qianqian Wang , Shangzhan Zhang , Qing Shuai , Hujun Bao , Xiaowei Zhou

分类：计算机视觉

2022-03-15

本文解决了从多视频视频中重建动画人类模型的挑战。最近的一些作品提出，将一个非刚性变形的场景分解为规范的神经辐射场和一组变形场，它们映射观察空间指向规范空间，从而使它们能够从图像中学习动态场景。但是，它们代表变形场作为转换矢量场或SE（3）字段，这使得优化高度不受限制。此外，这些表示无法通过输入动议明确控制。取而代之的是，我们基于线性混合剥皮算法引入了一个姿势驱动的变形场，该算法结合了混合重量场和3D人类骨架，以产生观察到的对应对应。由于3D人类骨骼更容易观察到，因此它们可以正规化变形场的学习。此外，可以通过输入骨骼运动来控制姿势驱动的变形场，以生成新的变形字段来动画规范人类模型。实验表明，我们的方法显着优于最近的人类建模方法。该代码可在https://zju3dv.github.io/animatable_nerf/上获得。

translated by 谷歌翻译

A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for Segment-level Video Copy Detection

Sifeng He , Xudong Yang , Chen Jiang , Gang Liang , Wei Zhang , Tan Pan , Qing Wang , Furong Xu , Chunguang Li , Jingxiong Liu

分类：计算机视觉

2022-03-05

在本文中，我们介绍了VCSL（视频复制段本地化），这是一种新的综合段级注释的视频复制数据集。与受视频级注释或小规模限制的现有复制检测数据集相比，VCSL不仅具有两个段级标签的数据级，其中有160k现实的视频副本对，其中包含超过280k的本地化copied seggment对，而且还包含超过280k涵盖各种视频类别和各种视频持续时间。每个收集的视频对中的所有复制段均经过手动提取，并伴随着精确注释的启动和结束时间戳。除了数据集外，我们还提出了一种新颖的评估协议，该协议可以更好地衡量视频对之间复制重叠段的预测准确性，并在不同情况下显示出改善的适应性。通过使用拟议的数据集和评估指标对几个基线和最先进的细分级视频副本检测方法进行基准测试，我们提供了一项全面的分析，可以揭示当前方法的优势和劣势作品。 VCSL数据集，公制和基准代码均在https://github.com/alipay/vcsl上公开获得。

translated by 谷歌翻译